草庐IT

scrapy -- CrawlSpider类

全部标签

python - 创建一个通用的 scrapy 蜘蛛

我的问题实际上是如何做与上一个问题相同的事情,但在Scrapy0.14中。UsingoneScrapyspiderforseveralwebsites基本上,我有一个GUI,它接受域、关键字、标签名称等参数,我想创建一个通用蜘蛛程序来为那些标签中的那些关键字爬行这些域。我读过相互矛盾的东西,使用旧版本的scrapy,通过覆盖蜘蛛管理器类或动态创建蜘蛛。首选哪种方法以及如何实现和调用正确的解决方案?提前致谢。这是我想要通用的代码。它还使用BeautifulSoup。我将它配对,希望没有删除任何对理解它至关重要的东西。classMySpider(CrawlSpider):name='MyS

html - scrapy - 如何从 'div' 获取文本

刚开始接触scrapy。现在我正在尝试按照教程进行爬网。但是我很难从div中抓取文本。这是items.pyfromscrapy.itemimportItem,FiedclassDmozItem(Item):name=Field()title=Field()pass这是dmoz_spider.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromscrapy.itemimportItemfromdmoz.itemsimportDmozItemclassDmozSpider(Base

html - scrapy - 如何从 'div' 获取文本

刚开始接触scrapy。现在我正在尝试按照教程进行爬网。但是我很难从div中抓取文本。这是items.pyfromscrapy.itemimportItem,FiedclassDmozItem(Item):name=Field()title=Field()pass这是dmoz_spider.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromscrapy.itemimportItemfromdmoz.itemsimportDmozItemclassDmozSpider(Base

python - 使用 scrapy 抓取网站

我正在尝试抓取website使用scrapy,但我无法从该站点抓取所有产品,因为它正在使用无休止的滚动...我只能抓取以下52个项目的数据,但它们是3824个项目。hxs.select("//span[@class='itm-Catbrandstrong']").extract()hxs.select("//span[@class='itm-price']").extract()hxs.select("//span[@class='itm-title']").extract()如果我使用hxs.select("//div[@id='content']/div/div/div").ext

python - 使用 scrapy 抓取网站

我正在尝试抓取website使用scrapy,但我无法从该站点抓取所有产品,因为它正在使用无休止的滚动...我只能抓取以下52个项目的数据,但它们是3824个项目。hxs.select("//span[@class='itm-Catbrandstrong']").extract()hxs.select("//span[@class='itm-price']").extract()hxs.select("//span[@class='itm-title']").extract()如果我使用hxs.select("//div[@id='content']/div/div/div").ext

python - scrapy 获取包括 child 在内的整个文本

我有一系列我正在使用scrapy抓取的文档中的元素。其中一些是:blablabla或者blablablasecondblabla我想提取所有带有子项的文本(假设我已经有了的选择器)(第二个例子:有一个字符串blablablasecondblabla) 最佳答案 您可以只使用//text()从子节点中提取所有文本例如:.//p//text() 关于python-scrapy获取包括child在内的整个文本,我们在StackOverflow上找到一个类似的问题:

python - scrapy 获取包括 child 在内的整个文本

我有一系列我正在使用scrapy抓取的文档中的元素。其中一些是:blablabla或者blablablasecondblabla我想提取所有带有子项的文本(假设我已经有了的选择器)(第二个例子:有一个字符串blablablasecondblabla) 最佳答案 您可以只使用//text()从子节点中提取所有文本例如:.//p//text() 关于python-scrapy获取包括child在内的整个文本,我们在StackOverflow上找到一个类似的问题:

html - 使用 scrapy 获取 crawlspider 来处理经过身份验证(登录)的用户 session

你好,我怎样才能让我的crawlspider工作,我可以登录,但没有任何反应,我真的没有抓到。我也一直在阅读scrapy文档,我真的不明白用于抓取的规则。为什么“登录成功,开始爬虫!”我在else语句的末尾也有这条规则,但将其删除,因为它甚至没有被调用,因为它在我的elseblock中。所以我将它移到start_request()方法的顶部但出现错误所以我删除了我的规则。rules=(Rule(extractor,callback='parse_item',follow=True),)我的代码:fromscrapy.contrib.spiders.initimportInitSpide

html - 使用 scrapy 获取 crawlspider 来处理经过身份验证(登录)的用户 session

你好,我怎样才能让我的crawlspider工作,我可以登录,但没有任何反应,我真的没有抓到。我也一直在阅读scrapy文档,我真的不明白用于抓取的规则。为什么“登录成功,开始爬虫!”我在else语句的末尾也有这条规则,但将其删除,因为它甚至没有被调用,因为它在我的elseblock中。所以我将它移到start_request()方法的顶部但出现错误所以我删除了我的规则。rules=(Rule(extractor,callback='parse_item',follow=True),)我的代码:fromscrapy.contrib.spiders.initimportInitSpide

python - 如何使用 scrapy Selector 获取节点的 innerHTML?

假设有一些html片段,例如:textinatextinbtextinctextinbtextinatextinc我想在其中提取标签内的文本,但在保留其文本的同时排除这些标签,例如,我想在上面提取的内容就像“文本中的文本在b中的文本在c中”和“文本在b中文本公司中的文本”。现在我可以使用scrapySelectorcss()函数获取节点,那么我该如何处理这些节点以获得我想要的呢?任何想法将不胜感激,谢谢! 最佳答案 这是我设法做到的:fromscrapy.selectorimportSelectorsel=Selector(text